Analogy-based Text Normalization : the case of unknowns words (Normalisation de textes par analogie: le cas des mots inconnus) [in French]

نویسندگان

  • Marion Baranes
  • Benoît Sagot
چکیده

Analogy-based Text Normalization : the case of unknowns words. In this paper, we describe and evaluate a system for improving the quality of noisy texts containing non-word errors. It is meant to be integrated into a full information extraction architecture, and aims at improving its results. For each word unknown to a reference lexicon which is neither a named entity nor a neologism, our system suggests one or several normalization candidates (any known word which has the same lemma as the spell-corrected form is a valid candidate). For this purpose, we use an analogybased approach for acquiring normalisation rules and use them in the same way as lexical spelling correction rules. Mots-clés : normalisation textuelle, correction orthographique, analogie.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Study of Domain Dependant Multi-Polarity Words for Document Level Opinion Mining (Influence des marqueurs multi-polaires dépendant du domaine pour la fouille d'opinion au niveau du texte) [in French]

Résumé. Les méthodes de détection automatique de l’opinion dans des textes s’appuient sur l’association d’une polarité d’opinion aux mots des textes, par lexique ou par apprentissage. Or, certains mots ont des polarités qui peuvent varier selon le domaine thématique du texte. Nous proposons dans cet article une étude des mots ou groupes de mots marqueurs d’opinion au niveau du texte et qui ont ...

متن کامل

Study of Pneumothorax in Children: A Case Report

PNEUllOTHORAX DE L'ENFANT  Presentation de 17 cas. Revue de la litterature Par: Marandian M.H., Momenzadhe A., Wali­zade G., Kabiri M., A'skari H. et Movasat M.  Durant deux ans et demi, 17 cas de pneumo­thorax ont ete observes dans le service de Pedia­trie de !'Hospital Pahlavi de l'Univm-site de Teheran:  1)9 de ces malades etaient ages de moins d'un an. Le malade le plus age atteint de pn...

متن کامل

A review of weighting schemes for bag of visual words image retrieval

Current studies on content-based image retrieval mainly rely on bags of visual words. This model of image description allows to perform image retieval in the same way as text retrieval: documents are described as vectors of (visual) word frequencies, and documents are match by computing a distance or similarity measure between the vectors. But instead of raw frequencies, documents can also be d...

متن کامل

Une nouvelle approche pour la recherche d'images par le contenu

Résumé. On utilise l’analyse factorielle des correspondances (AFC) pour la recherche d’images par le contenu en s’inspirant directement de son utilisation en analyse des données textuelles (ADT). L’AFC permet ici de réduire les dimensions du problème et de sélectionner des indicateurs pertinents pour la recherche par le contenu. En ADT, l’AFC est appliquée à un tableau de contingence croisant m...

متن کامل

فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان

Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2014